home *** CD-ROM | disk | FTP | other *** search
/ Cream of the Crop 26 / Cream of the Crop 26.iso / educate / trutran2.zip / ARTICLE4 < prev    next >
Text File  |  1996-12-14  |  46KB  |  844 lines

  1.  
  2.               *** PRESS ANY KEY TO SEE THE NEXT SCREEN ***
  3.  
  4.          If you wish to print this article or view it in its
  5.          entirety, please load it into your word processor
  6.                           as ARTICLE4.
  7.  
  8.                    *********************************
  9.                    *    For an overview of these   *
  10.                    *  articles, please first read  * 
  11.                    *     the file ARTICLE0.SEE     *
  12.                    *********************************
  13.  
  14.  
  15.           [The following paper was presented at the 1995 ATA
  16.           Conference in Nashville and published in the Pro-
  17.           ceedings.  It was accompanied by a number of illustra-
  18.           tions, most of which cannot be provided in this elec-
  19.           tronic version, and even the published version 
  20.           contained only four of them.  Or rather, although 
  21.           they could be provided, the work of scanning and 
  22.           reediting fine line-drawings would take too long.
  23.           
  24.           Wherever necessary in the text, sections in brackets
  25.           attempt to describe the missing illustrations.  This paper
  26.           has been uploaded with permission from Information
  27.           Today, publishers of the ATA Proceedings.  Anyone who
  28.           has a desperate urge to see the published drawings can
  29.           order the Proceedings from them.  Their address is
  30.           Information Today, Inc., Medford, New Jersey, 08055.]
  31.  
  32.  
  33.                ****************************************** 
  34.  
  35.                     Perfect MT: Logical Certainty
  36.                      Or Recurrent Self-Delusion?
  37.                                      
  38.                  (Ten Fragments and Three Contentions
  39.                      Connected by a Single Theme)
  40.  
  41.               *******************************************
  42.                                           
  43.                                By Alex Gross
  44.                    Cross-Cultural Research Projects, ATA
  45.           
  46.           
  47.           Keywords:  Machine Translation, Human Translation,
  48.           History of Computers, Knowledge Interfaces, Data Bases,
  49.           Limits of Science
  50.           
  51.           ABSTRACT:  The speaker will discuss Machine Translation
  52.           as one of a number of language- and knowledge-
  53.           organizing devices that have developed over time and in
  54.           various cultures.  His chief interest lies in the
  55.           assertions of MT's pioneers--though still echoed by
  56.           some specialists today--that perfect or near-perfect
  57.           translation by computers can in fact be accomplished.
  58.           Using overhead slides, he will move from early Chinese
  59.           to classical Arabic to medieval Christian beliefs about
  60.           the nature of knowledge and language along with various
  61.           theories attempting to explain or control them.  He
  62.           will not neglect Swift's satirical Academy of Lagado as
  63.           he moves closer to the computer age and attempts to
  64.           show at least a few parallels between modern science
  65.           and past systems of knowledge.  Problems with various
  66.           types of knowledge interfaces will be considered,
  67.           including those for computers, and the speaker will
  68.           conclude with some specific remarks about where MT is
  69.           currently headed and how translators can best
  70.           accommodate themselves to the kinds of work it 
  71.           does best.
  72.           
  73.           
  74.           
  75.           I want to begin this paper with the all-important two-
  76.           part proviso that has to accompany any treatment of MT
  77.           at a translators' Conference.  1)  No one opposes MT
  78.           where it works, and 2) MT works quite well for those
  79.           tasks where it is suitable.  Similarly, there are two
  80.           extremes which we must avoid at all costs:
  81.           
  82.                a) MT is useless--it will never truly work; and
  83.                
  84.                b) MT is inevitable, it will soon take over all
  85.                of translation, and we will all be out of jobs.
  86.           
  87.           Now that I've made this abundantly clear, I'd like to
  88.           discuss the question that I find most truly
  89.           interesting.  How is it possible that for nearly fifty
  90.           years many perfectly intelligent and even ingenious
  91.           engineers, linguists, and researchers could have ever
  92.           supposed that something resembling perfect MT could
  93.           ever come into being?  And how is it possible, I might
  94.           add, that quite a few of these authorities have still
  95.           not totally climbed down from this position and
  96.           continue to believe that it will sooner or later become
  97.           possible to put most of the people in this room out of
  98.           work?  And, finally, how does it come about that a
  99.           number of academic fields and even professional
  100.           organizations are still aimed at precisely this goal?
  101.           How has it become possible for any of this to take
  102.           place and for any of these people to go on believing
  103.           this?
  104.           
  105.           To answer this multi-part question I want to take you
  106.           on a private tour through a number of artifacts,
  107.           images, or ideas from the past and/or from other
  108.           cultures.  I also want to describe a few encounters and
  109.           episodes I've witnessed in our own age and culture.
  110.           I'm calling all of these collectively "fragments," and
  111.           I hope that by the end of this tour you will begin to
  112.           share my view of the connections between them and see
  113.           how they relate to MT today.  What most of these
  114.           fragments have in common is that they have something to
  115.           do with a means of organizing either language or human
  116.           knowledge or reality itself--or all three together.  In
  117.           the midst of our tour I will also introduce three
  118.           outrageous contentions, which I mean to defend quite
  119.           seriously.
  120.           
  121.           The first such artifact [overhead slide 1] is a Chinese
  122.           geomantic compass, called a fengshui luopan or,
  123.           literally, a wind and water compass.  As you can see,
  124.           it's a set of concentric circles and purports to
  125.           demonstrate how individual human beings fit into the
  126.           larger pattern of the universe.  There is no way I can
  127.           really explain fengshui without all of you assuming
  128.           that it must be some form of astrology, even though I
  129.           know for a certainty that it covers far more than what
  130.           is properly considered as astrology.  This wheel or
  131.           compass provides a metaphysical, medical, and even a
  132.           methodological guide to the classical Chinese universe.
  133.           
  134.           But what does this have to do with computers, you may
  135.           ask.  If we look at the next slide [slide 2], the
  136.           answer should become clear.  Once again we see a wheel
  137.           or a set of wheels, but instead of Chinese characters
  138.           we find English words, actually a translation from the
  139.           Latin.  This set of wheels, unlike the Chinese one, is
  140.           credited by those in the field with providing the first
  141.           crucial step towards the computer.  The reason for this
  142.           is that its various wheels move independently of one
  143.           another, while the fengshui luopan was a single rigid
  144.           piece.  This is what patent lawyers call "the inventive
  145.           step" and possibly defines that point where the East
  146.           ends and the West begins, even though it may yet turn
  147.           out that its inventor based it on an Arab original.
  148.           
  149.           This inventor, whose life bridged the thirteenth and
  150.           fourteenth centuries, was a truly great linguist and
  151.           even the founder of language schools.  He managed to be
  152.           both a scholar and a popularizer, both a scientist in
  153.           terms of his own age and a fanatical Christian
  154.           apologist.  And because he wrote in both Catalan and
  155.           Arabic, for four centuries his works were known in both
  156.           Christian and Muslim lands.  His name in his native
  157.           language is El Beat Ramon Llull, or the Blessed Raymond
  158.           Llull, "Blessed" being the title one step below "Saint"
  159.           in the Catholic hierarchy.  He was also deeply
  160.           interested in medical studies.
  161.           
  162.           What do these Llullian wheels do?  They supposedly
  163.           illustrate the attributes of God according to various
  164.           human and divine categories.  To some extent they
  165.           overlap on the territory of the Chinese Fengshui
  166.           compass.  But because the wheels move independently,
  167.           what we are also looking at here is an early example of
  168.           a relational data base, or at least of the hardware or
  169.           software shell for such a data base.
  170.           
  171.           This invention, as vapid and metaphysical as it may
  172.           seem, pointed the way to the scientific age, which I
  173.           think we've all heard about, and so I'll skip to the
  174.           year 1726, when Jonathan Swift was busy sending up this
  175.           entire movement in Gulliver's Travels.  Here we see
  176.           [slide 3] the Frame or Engine for Improving Speculative
  177.           Knowledge from the Academy of Lagado. Swift describes
  178.           it as follows:
  179.           
  180.           [This illustration shows a remarkably nonsensical-
  181.           looking gridded square with 20 lines criss-crossing
  182.           horizontally and vertically to form 400 little squares.
  183.           Within each square is a silly looking "foreign"
  184.           character, perhaps a cross between Arabic and Siamese.
  185.           Around all four sides are representations of little
  186.           "handles" at each level of the grid.]
  187.           
  188.                The first Professor I saw was in a very large
  189.                Room, with Forty Pupils about him.  After
  190.                Salutation, observing me to look earnestly upon a
  191.                Frame, which took up the greatest Part of both the
  192.                Length and Breadth of the Room; he said, perhaps I
  193.                might wonder to see him employed in a Project for
  194.                improving speculative Knowledge by practical and
  195.                mechanical Operations.  But the World would soon
  196.                be sensible of its Usefulness; and he flattered
  197.                himself, that a more noble exalted Thought never
  198.                sprang in any other Man's Head.  Everyone knew how
  199.                laborious the usual Method is of attaining to Arts
  200.                and Sciences; whereas by his Contrivance, the most
  201.                ignorant Person at a reasonable Charge, and with a
  202.                little bodily Labour, may write Books in
  203.                Philosophy, Poetry, Politicks, Law, Mathematicks
  204.                and Theology, without the least Assistance from
  205.                Genius or Study.  He then led me to the Frame,
  206.                about the Sides whereof all his Pupils stood in
  207.                Ranks.  It was Twenty Foot Square, placed in the
  208.                Middle of the Room.  The Superficies was composed
  209.                of several Bits of Wood, about the Bigness of a
  210.                 Dye, but some larger than others.  They were all
  211.                linked together by slender Wires.  These Bits of
  212.                Wood were covered on every Square with Papers
  213.                pasted on them; and on these Papers were written
  214.                all the Words of their Language in their several
  215.                Moods, Tenses. and Declensions, but without any
  216.                Order.  The Professor then desired me to observe,
  217.                for he was going to set his Engine at work.  The
  218.                Pupils at his Command took each of them hold of an
  219.                Iron Handle, whereof there were Forty fixed round
  220.                the Edges of the Frame; and giving them a sudden
  221.                Turn, the whole Disposition of the Words was
  222.                entirely changed.  He then commanded Six and
  223.                Thirty of the Lads to read the several Lines
  224.                softly as they appeared upon the Frame; and where
  225.                they found three or four Words together that might
  226.                make Part of a Sentence, they dictated to the four
  227.                remaining Boys, who were Scribes.  This Work was
  228.                repeated three or four Times, and at every Turn
  229.                the Engine was so contrived, that the Words
  230.                shifted into new Places, as the square Bits of
  231.                Wood moved upside down.
  232.                
  233.                Six Hours a-Day the young Students were employed
  234.                in this Labour; and the Professor shewed me
  235.                several Volumes in large Folio already collected,
  236.                of broken Sentences, which he intended to piece
  237.                together; and out of those rich Materials to give
  238.                the World a compleat Body of all Arts and
  239.                Sciences; which however might be still improved
  240.                and much expedited, if the Publick would raise a
  241.                Fund for making and employing five Hundred such
  242.                Frames in Lagado, and oblige the Managers to
  243.                contribute in common their several Collections.
  244.                
  245.                He assured me, that this Invention had employed
  246.                all his Thoughts from his Youth; that he had
  247.                emptyed the whole Vocabulary into his Frame, and
  248.                made the strictest Computation of the general
  249.                Proportion there is in Books between the Numbers
  250.                of Particles, Nouns, and Verbs, and other Parts of
  251.                Speech." (1)
  252.           
  253.           In his description of the Academy of Lagado, Swift was
  254.           of course exercising his satirist's right to
  255.           exaggerate.  Many of the experiments he singles out are
  256.           totally ridiculous, though perhaps no more so than some
  257.           experiments undertaken today.  He was in fact
  258.           satirizing all of Science, and this may be the reason
  259.           why this episode has been cut from some abridged
  260.           versions of Gulliver's Travels.
  261.           
  262.           How mistaken Swift could be is proven by my next
  263.           exhibit, a perfectly successful example of language-,
  264.           knowledge-, and reality-management, dating from the
  265.           year 1852.  Once again there is a medical aspect,
  266.           because its inventor was not only a doctor but served
  267.           as Secretary and Vice-President of London's Medico-
  268.           Chirurgical Society and later as a member and Secretary
  269.           of the Royal Society.  He also invented a slide rule,
  270.           wrote a regular column on chess problems, and even
  271.           created the first inexpensive chessboard.  Perhaps most
  272.           intriguingly--he worked long and hard during the 1840s
  273.           on the invention of a calculating machine.  But work on
  274.           his most important contribution to humanity began only
  275.           when he was in his seventy-first year.  This invention
  276.           was so successful that we still use it in one version
  277.           or another today, 147 years after its creation. I used
  278.           it in writing this paper.
  279.           
  280.           It is of course [slide 4, showing the frontispiece of
  281.           an early edition and a portrait of the author] the
  282.           "Thesaurus of English Words and Phrases" by Dr. Peter
  283.           Mark Roget.  In the preface Roget advanced both
  284.           philosophical and practical claims for his work.  Here
  285.           once again we encounter the notion that an invention
  286.           capable of organizing language can also affect human
  287.           knowledge, perhaps everyday reality itself.  Roget
  288.           argued that anyone who used his Thesaurus would become
  289.           more persuasive in argument and hence better able to
  290.           influence events.
  291.           
  292.           There's one important feature about his invention that
  293.           I would ask you to note, as it has some relevance to
  294.           MT.  With all his interest in chess, slide-rules, and
  295.           automatic calculators, Roget never suggested that his
  296.           Thesaurus itself was automatic or that it could be
  297.           consulted mechanically by a non-human user.  The whole
  298.           point of the Thesaurus is that would-be users must
  299.           examine the various lists of words and make their own
  300.           choices, based on a specific task and context.  But
  301.           even today not everyone gets the "point" of a
  302.           thesaurus: there are those--mostly non-writers or
  303.           others lacking verbal sophistication--who imagine it is
  304.           a kind of failed dictionary.  They want only the word
  305.           that they imagine they want and may actually blame the
  306.           Thesaurus for making them choose.  I can't help
  307.           wondering if some of their descendants have not now
  308.           wandered into MT.
  309.           
  310.           With Peter Mark Roget we are clearly only a few steps
  311.           from his contemporary Charles Babbage, who was already
  312.           at work--with aid from Lord Byron's daughter Duchess
  313.           Ada--building the "Analytical Engine," which had it
  314.           been completed would have qualified as a true prototype
  315.           of the computer.
  316.           
  317.           At this point, I think my next fragment can be none
  318.           other than Alan Turing's famous statement in his paper
  319.           Intelligent Machinery (2).  Here he foresaw the use of
  320.           "television cameras, microphones, loudspeakers, wheels
  321.           and handling servo-mechanisms" as well as some sort of
  322.           "electric brain."  It would be capable of [slide 5,
  323.           which shows the above quotation, plus the indented
  324.           section below]:
  325.           
  326.                "(i) Various games...
  327.                (ii) The learning of languages
  328.                (iii) Translation of languages (author's emphasis)
  329.                (iv) Cryptography
  330.                (v) Mathematics"
  331.           
  332.           Now we are getting directly into computers, and my next
  333.           example is going to be rather contentious or will
  334.           appear as such to some people.  It is in fact a set of
  335.           three connected arguments I made two years ago at a New
  336.           York Circle panel on MT.  It goes as follows:
  337.           
  338.              1)  There will never, ever be a perfect computer
  339.              interface that works satisfactorily for all purposes
  340.              and for all people.
  341.           
  342.              2)  There will never, ever be a perfect hypertext
  343.              system that permits ideal information retrieval for all
  344.              people.
  345.           
  346.              3)  There will never, ever be a truly advanced system
  347.              of machine translation that allows all texts to be
  348.              adequately--not perfectly but no more than adequately--
  349.              translated for all purposes.
  350.           
  351.           These are the three contentions I mentioned in my sub-
  352.           title.  They are closely related, and most of my
  353.           remaining fragments will be devoted to proving they are
  354.           true.  I will also have a few words for anyone who may
  355.           be shocked by my use not only of the adverb never but
  356.           of its colloquial cousin "never, ever," but I will save
  357.           these for the Conference session itself.
  358.           
  359.           [ASIDE, NOT IN PUBLISHED PAPER:  At the "session
  360.           itself," the author took pains to inspire the audience,
  361.           by a show of hands, to express disagreement with his
  362.           position.  He fully recounted many of the arguments
  363.           that could be used against his contentions.  After all,
  364.           he pointed out, no one can predict what wonderful
  365.           progress science may make in the next 100 years: look
  366.           at the wonders of electricity, atomic power, airplanes,
  367.           space flight, all of them either inconceivable or in
  368.           their infancy 100 years ago.  With these as bait, he
  369.           prompted audience members to raise their hands if they
  370.           believed all three of the obstacles he named in his
  371.           contentions would be readily overcome in the next 100
  372.           years.  About one-fifth of those attending did so.  He
  373.           then--amidst considerable laughter--challenged them to
  374.           consider the current condition of an extremely familiar
  375.           technological device (and its interface), which all of
  376.           them had used at least once before the conference
  377.           session and would use again after leaving it--and
  378.           which, moreover, has been commonly in use and under
  379.           constant improvement for the past ***120 years*** :
  380.           namely, ***the elevator***.
  381.           
  382.           The basic functioning of an elevator could not possibly
  383.           be simpler, nor could its interface be more elementary.
  384.           There are two basic functions and two basic switches:
  385.           "UP" and "DOWN," in a sense a pure binary system.  In
  386.           between there are a small or large (though
  387.           theoretically infinite) number of floors or levels, but
  388.           these are mere details, as are the "CLOSE" and "OPEN
  389.           DOOR" switches, the "STOP BUTTON," and the "ALARM
  390.           BELL."  Yet with all this simplicity of design and
  391.           purpose, virtually no two elevators we enter are ever
  392.           the same or possess the same interface.  As anyone
  393.           knows who has tried to figure out the controls of a
  394.           moving and/or misbehaving elevator, even after 120
  395.           years of development the interface is far from perfect
  396.           or consistent.  Add to this that there are many urgent
  397.           reasons why this interface ought to have been
  398.           rationalized and perfected, potential loss of clothing,
  399.           arms, legs, and heads being perhaps foremost.  Even if 
  400.           we ignore the chaos of computer interfaces that now 
  401.           surrounds us, are we really supposed to believe that the 
  402.           development of considerably more complex computer, 
  403.           hypertext, and MT interfaces will follow any smoother 
  404.           course than that logged by the elevator over the
  405.           years to come?  END OF ASIDE]
  406.           
  407.           My next fragment is an episode and has to do with
  408.           CATNYP, the New York Public Library's computerized
  409.           catalog.  I was using this system recently when a young
  410.           man sat down at the next computer.  After spending about
  411.           half an hour fiddling through the help screens, he was
  412.           clearly close to despair.  Finally, he turned to me and
  413.           whispered "Look, how do you use this thing anyway?"  I
  414.           asked him what he was searching for, and he told me he
  415.           needed descriptions about clothing worn by the middle
  416.           classes in early nineteenth century England.  "I've
  417.           tried `clothing,'" he lamented, "I've tried `middle
  418.           classes' and I've tried `England,' but none of it
  419.           works."
  420.           
  421.           For the next half hour we all did our best--soon two
  422.           near-by researchers were also whispering solutions--to
  423.           refine (or should we say pre-edit?) his question so
  424.           that the computer could handle it.  We ran through
  425.           "garb," "apparel," "attire," and other generic hedges
  426.           for "clothing," and finally our efforts were rewarded.
  427.           CATNYP produced a screen listing an illustrated book
  428.           that seemed to meet our friend's needs.  We were elated
  429.           by our collective success, but then he asked another
  430.           question: "Hey, that's great, what a terrific system--
  431.           now how do I bring the book up on the screen?"  With
  432.           some embarrassment, as though we ourselves were
  433.           responsible for the system's shortcomings, we explained
  434.           to him that he would have to fill out a slip, hand it
  435.           in at the desk, wait ten minutes or so, and finally be
  436.           handed a heavy, old-fashioned, page-ridden analogue
  437.           book.  He was clearly annoyed by this, and to some
  438.           extent so were we.
  439.           
  440.           But wait, I hear the cry ringing out, before you know
  441.           it, the great computer miracle will soon have solved
  442.           this.  By tomorrow at the latest every single page of
  443.           every single book ever written will soon be accessible,
  444.           graphics, fold-outs, tables, and all--with just a few
  445.           keystrokes.  Those who suppose this will truly become
  446.           possible, as with perfect machine translation, have not
  447.           even begun to focus on the scope of the problem.  In
  448.           writing this paper, I made a few inquiries of
  449.           librarians, and they confirmed my worst suspicions many
  450.           times over.
  451.           
  452.           The entire national library system long ago spent
  453.           millions on "up-to date technologies" in the form of
  454.           microfilm and microfiches.  But even then, using a
  455.           relatively inexpensive technology, they came nowhere
  456.           near preserving all the world's books or periodicals
  457.           but only a small fraction of the most valuable of
  458.           these.  Now both microfilm and microfiche are
  459.           considered a passe' technology, at least by computer
  460.           advocates and salesmen.  But by the time these new
  461.           tools can possibly hope to record a comparable fraction
  462.           of printed materials, what further technology will lie
  463.           in wait with its own set of fabulous claims?  Have we
  464.           willy-nilly been placed in the position of the Red
  465.           Queen in Alice in Wonderland, who had to run as fast as
  466.           she possibly could simply to remain in one place?
  467.           
  468.           A few decades ago some of us collected 78 RPM records,
  469.           only to see them replaced by 33's and 45's, themselves
  470.           later eclipsed by audio cassettes and 8-track stereo,
  471.           all of them now replaced by CD's and/or their CD ROM
  472.           cousins.  I am once again happily collecting these last
  473.           two products, but the word has been out for a few years
  474.           that even their days are numbered.  And at no point did
  475.           any one of these remarkable media ever come close to
  476.           exhausting the simply unbelievable wealth of classical
  477.           music that exists in print or manuscript form.  Is it
  478.           any wonder that librarians are skeptical of some of the
  479.           claims advanced by computer enthusiasts?
  480.           
  481.           Now let's move in a bit closer to Machine Translation.
  482.           I hope everyone understands that in computer terms
  483.           there are distinct similarities in building a data base
  484.           of any kind, whether it is to catalog books, build a
  485.           thesaurus, set up an MT system, or create a model of
  486.           the universe.  Basically, in all these cases, what we
  487.           are doing is constructing a data base, with just a few
  488.           exotic (or perhaps not-so-exotic) differences thrown
  489.           in.  The computer doesn't care in the slightest which
  490.           one you are doing.  In fact, the computer never knows
  491.           that it is word processing or accessing information or
  492.           plotting a map or even telecommunicating or printing
  493.           something on a page.  In fact, the computer is so dumb
  494.           that it can't even tell when it is displaying an erotic
  495.           image.
  496.           
  497.           When the time came to deepen the computer's
  498.           relationship with printers, it had to be fed something
  499.           called a page-description language--the most famous of
  500.           these is "Postscript."  When it was decided to store
  501.           literary works in electronic form, a book-description
  502.           language had to be invented--here the best known is
  503.           "SGML."  And with the advent of the World Wide Web, it
  504.           even became necessary to produce a screen-description
  505.           language--the now famous "HTML," which the experts are
  506.           already discussing how to change.  But in order for
  507.           merely adequate machine translation to occur, it will
  508.           certainly be necessary to create something far more
  509.           ambitious, namely a "language-description language."
  510.           Such a construct would have to take into account most
  511.           phenomena that can occur in language, including
  512.           semantic and contextual elements.
  513.           
  514.           Here is the crux question: how is such a language-
  515.           description language to be created?  If we truly
  516.           attempt to include a large number of linguistic
  517.           aspects, then we will greatly increase the potential
  518.           for error and also end up with something quite
  519.           unwieldy.  No matter how vast or fast our computers can
  520.           become, it may still be unwieldy in human terms, and
  521.           we're the ones who have to use such a program.  If on
  522.           the other hand, we attempt to include only a limited
  523.           subset of language, then we will end up with something
  524.           like the Controlled Languages evolved by Caterpillar
  525.           and a few other firms and will have failed to reach our
  526.           original goal.  This entire conundrum brings to mind
  527.           the problems encountered by cartographers in a one-
  528.           minute parable by Borges, which I will now read in its
  529.           entirety as my next fragment:
  530.           
  531.           
  532.                "Of Exactitude in Science
  533.                
  534.                "...In that Empire, the craft of Cartography
  535.                attained such Perfection that the Map of a Single
  536.                province covered the space of an entire City, and
  537.                the Map of the Empire itself an entire Province.
  538.                In the course of Time, these Extensive maps were
  539.                found somehow wanting, and so the College of
  540.                Cartographers evolved a Map of the Empire that was
  541.                of the same Scale as the Empire and that coincided
  542.                with it point for point.  Less attentive to the
  543.                Study of Cartography, succeeding Generations came
  544.                to judge a map of such Magnitude cumbersome, and
  545.                not without some irreverence, they abandoned it to
  546.                the Rigors of Sun and Rain.  In the western
  547.                Deserts, tattered Fragments of the Map are still
  548.                to be found, Sheltering an occasional Beast or
  549.                beggar; in the whole Nation, no other relic is
  550.                left of the Discipline of Geography." (3)
  551.           
  552.           Building a truly comprehensive language-description
  553.           language is altogether likely to involve the same order
  554.           of complexity and impracticality as this mission to
  555.           build a same-scale, point-to-point map of the Empire.
  556.           
  557.           But now let's turn to how Machine Translation really
  558.           does work and see what lessons it holds for us.
  559.           Essentially MT will work best--perhaps not perfectly
  560.           even here--when you have what I call a Level Playing
  561.           Field Translation setup. [slide 6, which essentially
  562.           shows what is described below]
  563.           
  564.           As you can see from the slide, what we have here is
  565.           literally a "level playing field" with something like a
  566.           tennis net in the middle.  On one side, just to take
  567.           one possible example, (you could have any scientific
  568.           specialty at all, so let's be a trifle whimsical) you
  569.           have Professional Japanese Hydraulic Biochemical Micro-
  570.           Nuclear Space Scientists.  On the other side, in the
  571.           English-speaking world, we find Professional American
  572.           Hydraulic Biochemical Micro-Nuclear Space Scientists.
  573.           Here, except for the difference in language, you have
  574.           an almost perfect match-up of knowledge and experience,
  575.           so this example ought to be absolutely ideal for
  576.           setting up an MT system, building terminology
  577.           databases, constructing lists of new or unknown words,
  578.           and pouring them into the original program.
  579.           
  580.           But even here, in this nearly ideal MT setting, you can
  581.           still encounter problems.  What if lexical entries
  582.           don't match up perfectly in the two languages?  What if
  583.           the scientists in the two countries aren't following
  584.           the same procedures--in science or technology a near
  585.           certainty?  What if they don't even see themselves as
  586.           performing the same steps for the same reasons?  (Or
  587.           what if--for some reason--they don't want the other
  588.           scientists to **know** what they are doing?)
  589.           
  590.           Any or all of this could potentially happen even in our
  591.           ideal level playing field example.  But what if--let's
  592.           just suppose--there were some factors present that
  593.           tilted the playing field a bit to either side, or
  594.           tilted it for some of our experts in one direction but
  595.           for others in the opposite way?  [slide is tilted]  Some 
  596.           possible instances: supposing half of the people on the 
  597.           Japanese side turn out to be not Professional Hydraulic
  598.           Biochemical etceteras but newly trained interns
  599.           instead?  Or if they are in fact professionals but come
  600.           from related scientific fields with slightly different
  601.           terminologies?  What if they are students, or merely
  602.           stockholders in the company, or investigative
  603.           reporters, or members of the general public who have
  604.           wandered in to find out what the company is up to?
  605.           Much the same questions can be asked on the American
  606.           side, and the answers to questions on one side can
  607.           raise further questions on the other.  What happens to
  608.           the translation process in any combination of these
  609.           conditions, even assuming human beings are providing
  610.           the translation?  But, most important, what will happen
  611.           to an MT system under such circumstances?
  612.           
  613.           Here we come to a crucial point which I have made
  614.           elsewhere in other terms.  Contrary to our facile
  615.           belief that there can be such a thing as a "good
  616.           translation" or a "correct translation" that will work
  617.           in every case, no such thing as "generic translation"
  618.           may exist at all.  It may simply be a convenient
  619.           fiction we have employed to shield us from the true
  620.           complexity of the translation process and/or as a way
  621.           of reassuring ourselves or our customers that we are in
  622.           all cases capable of producing a "correct translation."
  623.           
  624.           Let me say this another way: there is one other crucial
  625.           factor involved in a translation besides the two
  626.           languages involved and the nature of the subject
  627.           matter--it concerns the audience and/or the occasion
  628.           for such a translation.  Wherever this audience or
  629.           occasion changes even slightly, there may have to be a
  630.           corresponding shift in the tone of the translation.
  631.           Where either of these factors changes more than
  632.           slightly, we enter the territory of rejected
  633.           translations, possibly even charges of incompetence.
  634.           But even the most conscientious translator or
  635.           translation company may not always be prepared to meet
  636.           every demand these circumstances are capable of hurling
  637.           at us.
  638.           
  639.           What we have run into here--or perhaps it has run into
  640.           us with a big stick in its hand--is the true extent of
  641.           the complexity of language.  It is hard enough for
  642.           humans to work under such circumstances--how can we
  643.           expect machines to handle them?  The real explanation
  644.           here may well be that we all make some outrageously
  645.           false assumptions about language and are totally
  646.           unaware we are doing so.  Once again, we assume that we
  647.           are all walking around on a level playing field, where
  648.           anyone can readily communicate with anyone else across
  649.           a short and easily bridged distance.
  650.           
  651.           But the truth is that we do not inhabit a level playing
  652.           field at all where language is concerned.  On the
  653.           contrary, if we were to visualize ourselves and
  654.           everyone around us as walking about on stilts of
  655.           completely different heights, textures, and stability,
  656.           so that even our very own two stilts are not
  657.           necessarily of the same height or composition, we would
  658.           have a better notion of how we actually move through
  659.           linguistic space and communicate with others.  You can
  660.           easily persuade yourself that this is true by the way
  661.           you react to others the next time you are in a social
  662.           situation.
  663.           
  664.           We each of us have our own store of linguistic tricks
  665.           and devices, and we look out almost instinctively for
  666.           those who have complementary tricks and devices.
  667.           Whenever we meet such a person, we become flushed with
  668.           enthusiasm, sometimes even love, and go on talking
  669.           forever.  But we just as quickly abandon those who do
  670.           not respond to our conversational rhythms.  True, we
  671.           also carry on everyday conversations with persons who
  672.           do not share our interests or language style, but we
  673.           usually do not speak at length or in detail or about
  674.           more than a few topics with them.  What I am trying to
  675.           suggest is that there is a whole universe of language
  676.           habits we are simply unaware of.  And if we are not
  677.           aware of them, how can we suppose that a computer can
  678.           gain such awareness?
  679.           
  680.           Let me now penetrate to the core of practicality about
  681.           MT: its place in the office environment.  In every
  682.           company over a certain size, there exists at least one
  683.           individual whose sole duty is to make your existence as
  684.           a translator extremely unpleasant.  This person may be
  685.           an office manager, an accountant, or perhaps even the
  686.           boss's personal assistant.  In all these cases, such a
  687.           person will constantly be looking for ways of saving
  688.           money.  Almost invariably, their gaze will fall upon
  689.           the translation department, whose employees are clearly
  690.           being overpaid to do work that should be accomplished
  691.           in a fraction of the time.  Your doom may well be
  692.           spelled if truly persuasive sales reps from an MT
  693.           company pay a call, and this accountant (or whoever)
  694.           falls under their spell.  If you do get the sack or
  695.           find yourself being retrained as an MT post-editor, you
  696.           have only one consolation.  As likely as not, three
  697.           years later a completely new office manager (or
  698.           accountant or boss's assistant) will be looking for
  699.           ways to save again, and this time they will decide that
  700.           the MT system costs too much and makes too many errors,
  701.           and the time has come to retrain MT post-editors as
  702.           humans.  Your best bet in any such situation is to
  703.           become as knowledgeable about MT as you possibly can be
  704.           and learn how to play office politics, so as to
  705.           influence the decision-making process before it
  706.           happens.
  707.           
  708.           Finally, I'd like to round out this paper in two ways.
  709.           I started out by noting that several professional
  710.           organizations and perhaps even entire academic fields
  711.           are still dedicated to the goal of perfecting MT or
  712.           still hold that such an option is viable.  Here is a
  713.           partial list of these groups and some of the
  714.           conferences they have been sponsoring [slide 7, which
  715.           duplicates the list shown below]:
  716.           
  717.           
  718.                             REACHING FOR MIND:
  719.                      FOUNDATIONS OF COGNITIVE SCIENCE
  720.                           Call for Papers for the
  721.                     Fourth International Conference on
  722.            The Cognitive Science of Natural Language Processing
  723.                                           
  724.                            LAST CALL FOR PAPERS
  725.                               FORMAL GRAMMAR
  726.                           in conjunction with the
  727.                European Summer School in Logic, Language and
  728.                                 Information
  729.                                           
  730.                         GROUNDING REPRESENTATIONS:
  731.                    Integration of sensory information in
  732.                        Natural Language Processing,
  733.                 Artificial Intelligence and Neural Networks
  734.                               IEE COLLOQUIUM
  735.                     IEE Computing and Control Division
  736.                                           
  737.           The School of Applied Languages, Dublin City University
  738.                                           
  739.                The Association for Computational Linguistics
  740.            Fourth International Workshop on Parsing Technologies
  741.                                           
  742.           II International Conference on Mathematical Linguistics
  743.                                           
  744.              Fifth International Workshop on Natural Language
  745.                     Understanding and Logic Programming
  746.           
  747.           Many of the members of these groups are highly
  748.           respected and highly paid academics, and it might seem
  749.           sacrilegious to some to suggest that they can possibly
  750.           fail in their goal.  I nonetheless believe that most of
  751.           the people in this room--perhaps even most of the
  752.           people at this Conference--possess deeper and more
  753.           useful knowledge about language than most of the
  754.           members of these groups, who could in fact profit
  755.           greatly by listening to what many of you could tell
  756.           them about language.
  757.           
  758.           I hope that these fragments have now begun to fall into
  759.           place to some extent.  And now, to conclude, let's look
  760.           briefly at our first two slides again.  [slides of
  761.           Fengshui Compass and Llullian Wheels are shown again.]
  762.           And in that context let's look at some of the diagrams
  763.           produced by some MT advocates.  Though only one is
  764.           reproduced in the Proceedings, several will be shown at
  765.           the Session itself.  [four further slides serve to
  766.           make the point that follows--the diagrams themselves
  767.           are either pretentiously complex or simple-mindedly
  768.           silly.]  Someone from another planet might suppose that
  769.           all these diagrams--MT, geomantic, theological, and
  770.           satirical alike--shared certain characteristics.  After
  771.           all, they are all based on circles and other geometric
  772.           figures, and they may also share in a certain circular
  773.           reasoning in that they purport to represent clear and
  774.           reproducible relationships between the abstract and
  775.           practical realms, as do the magical drawings of many
  776.           cultures and ages.  But it is by no means certain that
  777.           any of these diagrams fully succeeds in delineating--
  778.           much less establishing--such a relationship.  Each one
  779.           may succeed up to a certain point only because of our
  780.           self-serving desire that it should do so, even our need
  781.           to believe in our own self-fulfilling prophecies.  Yet
  782.           each one also fails because it falls short of
  783.           representing the complexities of both language and
  784.           reality by several orders of magnitude and makes no
  785.           allowance for the altogether variable identity of the
  786.           human value at its center.  Thus, it may still remain
  787.           to be determined whether and/or to what extent our
  788.           Doctors of Artificial Intelligence, Cognitive Science,
  789.           and Mathematical Linguistics truly differ from the
  790.           Professors at the Academy of Lagado.
  791.           
  792.           
  793.           NOTES:
  794.           
  795.           (1) Swift, Jonathan. Gulliver's Travels. Part Three,
  796.           Chapter 5.
  797.           
  798.           (2) Hodges, Andrew (1983) Alan Turing: The Enigma Simon &
  799.           Schuster, New York.  p. 382.
  800.                     
  801.           (3) Ostensibly from Travels of Praiseworthy Men (1658)
  802.           by J. A. Suárez Miranda, actually a part of Jorge Luís
  803.           Borges' A Universal History of Infamy, translated by
  804.           Norman Thomas di Giovanni, London: Allen Lane, 1973.
  805.  
  806.  
  807.           This paper is Copyright 1995 by Information Today, Inc.,
  808.           Medford, NJ.
  809.  
  810.  
  811.  
  812.  
  813.  
  814.  
  815.  
  816.  
  817.  
  818.  
  819.  
  820.  
  821.  
  822.  
  823.  
  824.  
  825.  
  826.  
  827.  
  828.  
  829.  
  830.  
  831.  
  832.  
  833.  
  834.  
  835.  
  836.  
  837.  
  838.  
  839.  
  840.  
  841.  
  842.  
  843.  
  844.